沙龙干货 | 基于Kubernetes的深度学习算法平台直播回顾集锦

Original 陈兴振 58AILab 2022-03-15

随着Kubernetes和容器技术的不断演进与日益成熟，云成为越来越多企业的基础设施。自2017年初开始，58技术团队逐步实践Kubernetes和Docker技术，打造了承载全集团千亿级流量的私有云平台，构建了支撑集团所有AI团队开展算法研发的深度学习平台，并将58自研搜索系统云化，打造了一站式搜索私有云平台“云搜”。

58同城技术委员会AI分会联合ITPUB将举办一期线上沙龙《Kubernetes在58的应用实践》，详细解析私有云、深度学习平台和云搜中的Kubernetes实战经验。58同城AI Lab后端架构师陈兴振于2020年5月27日20:00-21:00分享了《基于Kubernetes的深度学习算法平台》，以下是分享内容！

分享PPT下载

关注58AILab公众号，并发送消息 “K8S” 可获取PPT文件下载链接。

分享录像回放

Q&A集锦

问题1：WFS 性能怎么样？对小文件的读写性能怎么样？例如图片，语音这种。假设我有500G的语音文件，去训练，会咋样?

答：WFS是58集团存储服务部开发的高性能网络存储系统，用户可以将WFS目录挂载到本地以本地文件系统方式进行访问。WFS经过多个版本迭代，目前功能基本稳定，性能还在持续优化中，WFS大文件读写性能能到达物理机带宽速度。小文件读写性能跟存储配置有关系，如是否使用SSD、存储节点数量、网络带宽等。在不使用SSD、万兆以太网下小文件读速率是hdfs的2~3倍，写速率是hdfs的40+倍。

问题2：k8s 是原生的吗？

答：是的，目前用的社区的K8S版本

问题3：yaml是通过json生成的还是通过模版传入变量生成的？

答：提交到集群的yaml是通过用户在平台web门户配置参数，传递到后台，后台程序通过k8s api将yaml写入k8s集群。

问题4：这里多个模型混合部署，假如有一个模型原来流量少，突然流量增加了，就会影响其他模型，这里怎么处理的？是自动处理吗？

答：多个模型混合部署，其中一个模型流量突然增加不会影响到其他混部的模型。模型进行混部前都会先线上独立部署运行一段时间得到GPU使用率和QPS流量，切混合部署时会根据实际情况申请 GPU资源并设置QPS上限，当某个模型流量突增超过设置QPS时会被秒级限流模块进行限流并进行告警，下一步需要人工进行干预调整该模型资源大小或切换成独立部署。

问题5：Pytorch能混合部署么？

答：可以混合部署，PyTorch没有提供类似TensorFlow-Serving的服务化框架，我们基于Seldon封装了PyTorch模型推理RPC服务，当前封装的这套RPC服务已经兼容PyTorch模型混合部署，近期会进行上线。

问题6：k8s 集群规模有多大

答：大约有几百台物理机。

问题7：推理引擎主要支持的是Tensorflow么？

答：当前平台支持的TensorFlow、PyTorch、Caffe三个深度学习框架的模型推理，公司用的比较多的是TensorFlow和PyTorch。

问题8：推理引擎的软件也是跑在pod里，利用hpa伸缩吗

答：推理引擎的应用程序也是跑在后端pod里，目前没有使用hpa自动伸缩功能。

问题9：shareGPU能支持隔离吗？

答：目前调研到的GPU Sharing常用解决方案都不支持GPU资源的隔离，关于GPU Sharing下如何做资源隔离我们还在调研解决中。

问题10：mount wfs为什么没有选择pv/pvc的方式

答：wfs发布的第一版本物理机安装客户端的方式没有支持pv/pvc。

问题11：我们可以在wpai下载除了weight以外的其它文件吗？比如pd文件

答：模型训练过程中用户保存的文件都可以进行下载，需要用户将文件保存在设定目录下。

问题12：推理服务的那种方案，前面一个服务去接收请求转发到pod，这里pod示例服务的ip是怎么弄的，这里k8s内部网络配置怎么搞的

答：pod实例服务的IP用的是集群内部的虚拟IP，通过k8s网络插件calico来实现内部IP的分配和组网。

我们将深度学习算法平台中的推理服务进行了开源，项目名称为dl_inference

项目地址：

https://github.com/wuba/dl_inference

dl_inference 相关文章：

开源｜dl_inference：通用深度学习推理服务

dl_inference 直播回放：

直播回放 | 通用深度学习推理服务dl_inference开源项目解析

【招聘信息】

58同城AI Lab 社招/校招/实习生招聘，欢迎加入

AI Lab部门介绍

58同城TEG技术工程平台群AI Lab，旨在推动AI技术在58生活服务行业的落地，打造AI中台能力，以提高前台业务的人效和用户体验。AI Lab目前负责的产品包括：智能客服、语音机器人、智能写稿、智能营销、AI算法平台、智能语音分析平台、语音识别引擎等，未来将持续加速创新，拓展AI应用。

欢迎关注部门微信公众号：58AILab

欢迎添加部门小秘书微信进一步沟通交流

欢迎加入58 AI Lab技术交流社区

欢迎在欣秀（https://app.ic3i.com）平台上加入"58同城AILab技术沙龙"圈子，一起交流技术，可以扫描以下二维码加入该圈子：

团队照片

清华学生国庆怒怼丘成桐！这事儿到底谁对谁错？

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

上海超市血案：背后缘由让人揪心

利好来了！刚刚，A股首例！

沙龙干货 | 基于Kubernetes的深度学习算法平台直播回顾集锦

您可能也对以下帖子感兴趣

清华学生国庆怒怼丘成桐！ 这事儿到底谁对谁错？

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

上海超市血案：背后缘由让人揪心

利好来了！刚刚，A股首例！

生成图片，分享到微信朋友圈

沙龙干货 | 基于Kubernetes的深度学习算法平台直播回顾集锦

您可能也对以下帖子感兴趣

清华学生国庆怒怼丘成桐！这事儿到底谁对谁错？